全民可用的蛋白质结构预测来了!AlphaFold2源代码免费公开
原文作者:Ewen Callaway
DeepMind公司和一个对手团队的机器学习系统现已全部开源,并可免费获取。
全民可用的蛋白质结构预测来了。能够精准解析蛋白质三维结构的软件将供研究人员免费使用。
人白介素12蛋白与其受体结合的结构——由机器学习软件预测。来源:Ian Haydon, UW Medicine Institute for Protein Design
7月15日,总部位于伦敦的DeepMind公司公布了其深度学习神经网络AlphaFold 2的开源版本,并在《自然》[1]上发表了一篇阐释其原理的论文。AlphaFold 2在去年的蛋白质结构预测大赛上曾技惊四座(参见:颠覆生物学!AlphaFold成功预测蛋白质结构)。
与此同时,另一个学术团队在AlphaFold 2的启发下,也开发了一款蛋白质预测工具。该工具名为RoseTTaFold,预测能力与AlphaFold 2不相上下,已经受到了科研人员的热烈追捧。该团队7月15日在《科学》发表了一篇论文[2]描述了这个系统。
这两个工具的开源意味着科学界现在能在这些成果的基础上,创造出更强大、更有用的软件,未参与这两项研究的芝加哥大学的计算生物学家Jinbo Xu说。
从结构到功能
蛋白质是由氨基酸链组成的,折叠成三维结构的氨基酸链决定了细胞内蛋白质的功能。数十年的时间里,研究人员一直在用X射线晶体学和冷冻电镜这类实验技术解析蛋白质结构。但是,这类方法存在费时耗钱的问题,对一些蛋白也不适用。
去年,DeepMind在科学界掀起了轩然大波,它的软件仅凭蛋白质的序列(由DNA决定)就能准确预测其结构。学界在这方面的攻关已经进行了几十年,看到AlphaFold 2在两年一度的“蛋白质结构预测比赛”(CASP)上表现如此优异,比赛的创始人之一直呼其“在某种程度上攻克了该问题”。
去年12月1日,对公司项目一向讳莫如深的DeepMind在CASP大赛上简要介绍了AlphaFold 2,并承诺将发表一篇论文详细描述这个网络,并向研究人员免费开放整个软件,但具体细节并未展开。
“当时的学术界一片哀嚎。”华盛顿大学生物化学家David Baker说。Baker带领团队开发出了RoseTTaFold。“如果有人解决了你正在研究的问题,但不肯告诉你解决方法,你还怎么研究下去呢?”
“我当时觉得自己失业了。”Baker团队的成员、计算化学家Minkyung Baek说。但DeepMind在介绍会上呈现的新想法让Baek迫不及待想要一探究竟。于是,她和Baker还有他们的同事开始想办法重复AlphaFold 2的成功。
他们确定了AlphaFold 2的几大关键性进展,包括如何利用与预测目标在演化上相关的蛋白的信息,以及预测出的一个蛋白的部分结构如何影响AlphaFold 2对该分子其他部位对应序列的处理。
RoseTTaFold的预测能力毫不逊于AlphaFold 2,而且还远超其他CASP参赛团队的预测结果(包括一些来自Baker实验室的预测结果)。现在还不清楚它比AlphaFold 2差在哪里,一个可能是DeepMind拥有的专业能力,Baek说,“我们实验室没有深度学习工程师。”Xu很佩服Baek、Baker和他们合作者的工作,并猜测DeepMind的厉害之处在于其工程方面的专业知识和独一无二的算力。
加速结构解析
DeepMind 还对AlphaFold 2进行了优化。虽然这个网络在预测CASP比赛中的一些结构时,在计算上用了好几天的时间,但最新的开源版本比这个速度快了约16倍,AlphaFold首席研究员John Jumper说。取决于蛋白质的大小,AlphaFold 2能在几分钟到几小时内预测出结构。这和RoseTTaFold的速度差不了多少。
虽然AlphaFold 2的源代码现可免费获取——包括商业公司在内,但对不懂技术专业知识的研究人员可能不是特别有用。DeepMind 已经在与一些研究人员和组织合作,预测特定的蛋白质,合作对象包括总部位于瑞士日内瓦的“被忽略疾病药物”(Drugs for Neglected Diseases)非营利性组织,但 DeepMind希望能进一步开放技术,DeepMind的科学AI主管Pushmeet Kohli说。“我们在这个领域还有很多想做的尝试。”
除了让RoseTTaFold的代码免费公开,Baker的团队还搭建了一个服务器,研究人员只要插入一个蛋白质序列,就能得到预测好的结构。自上个月上线以来,这个服务器已经预测了约500人提交的5000多个蛋白,Baker说。
RoseTTaFold和AlphaFold 2的代码如今都已免费公开,研究人员可以在这两项成果的基础上继续拓展,Xu说,并有望解析AlphaFold 2至今难以下手的蛋白质结构。两个备受瞩目的领域正在预测多体蛋白质相互作用复合物的结构,并用这些软件用于设计新的蛋白质。
参考文献:
1. Jumper, J. et al. Nature https://doi.org/10.1038/s41586-021-03819-2 (2021).
2. Baek, M. et al. Science https://doi.org/10.1126/science.abj8754 (2021).
原文以DeepMind’s AI for protein structure is coming to the masses标题发表在2021年7月15日的《自然》的新闻版块上
© nature
doi: 10.1038/d41586-021-01968-y
点击阅读原文查看英文原文
点击文字或图片阅读相关文章
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2021 Springer Nature Limited. All Rights Reserved
星标我们🌟,记得点赞、在看+转发哦!